
新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍
新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍大模型同样的上下文窗口,只需一半内存就能实现,而且精度无损? 前苹果ASIC架构师Nils Graef,和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。
来自主题: AI资讯
5649 点击 2025-03-17 19:52
大模型同样的上下文窗口,只需一半内存就能实现,而且精度无损? 前苹果ASIC架构师Nils Graef,和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。